评估机器学习模型对对抗性示例的鲁棒性是一个具有挑战性的问题。已经证明,许多防御能力通过导致基于梯度的攻击失败,从而提供了一种错误的鲁棒感,并且在更严格的评估下它们已被打破。尽管已经提出了指南和最佳实践来改善当前的对抗性鲁棒性评估,但缺乏自动测试和调试工具,使以系统的方式应用这些建议变得困难。在这项工作中,我们通过以下方式克服了这些局限性:(i)根据它们如何影响基于梯度的攻击的优化对攻击失败进行分类,同时还揭示了两种影响许多流行攻击实施和过去评估的新型故障; (ii)提出了六个新的失败指标,以自动检测到攻击优化过程中这种失败的存在; (iii)建议采用系统协议来应用相应的修复程序。我们广泛的实验分析涉及3个不同的应用域中的15多个模型,表明我们的失败指标可用于调试和改善当前的对抗性鲁棒性评估,从而为自动化和系统化它们提供了第一步。我们的开源代码可在以下网址获得:https://github.com/pralab/indicatorsofattackfailure。
translated by 谷歌翻译